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摘 要 : [目的 /意义 ] 针对 生物 信息 学 中 著名 的 序列 比 对 算法 在 文本 相似 度 中 的 应 用 ,改进 前 人 的 方法 并 提高 文本 相似 
度 计算 的 准确 性 。[ 方 法 /过 程 ] 首先 ,对 目标 文本 进行 规范 化 处 理 ,构成 中 文 序列 集 。 随 后 ,利用 训练 好 的 
Word2vec 中 的 Skip-Gram 模型 来 构建 该 中 文 序列 集 的 语词 对 打分 矩阵 并 制定 好 打分 规则 。 最 后 ,对 中 文 序列 两 两 


进行 全 局 比 对 并 获得 比 对 的 最 优 解 ,回溯 得 到 最 优 解 的 比 对 路 径 , 计 算 中 文 序列 的 相似 度 。[ 结果 /结论 


] 实证 结 


JUI , 相 较 于 传统 方法 ,本 文 方法 融合 词 向 量 模型 提升 文本 相似 度 计 算 的 准确 性 并 有 效 解决 传统 方法 中 出 现 重 


复 词 对 的 问题 。 


fi]: Word2vec ”中 文 序列 “序列 比 对 全 局 比 对 文本 相似 度 
k=. TP391.1 
: 10. 13266/j. issn. 0252 -3116.2020. 10. 010 


文本 相似 度 计算 是 指 通过 一 定 的 策略 比较 两 个 或 
实体 (词语 ,短文 本 .文档 ) 之 间 的 相似 度 , 得 到 一 
ie 恨 休 量化 的 数值 。 随 着 信息 技术 的 迅速 发 展 ,对 互 
联网 产生 的 海量 信息 进行 挖掘 和 研究 能 提供 给 用 户 相 
关 耸 有 实际 意义 的 内 容 , 如 个 性 化 推荐 ,智能 检索 等 。 
浪 相 似 度 算法 的 研究 作为 联系 基础 研究 和 上 层 应 用 


一 种 并 且 该 方法 对 于 流 式 数据 以 及 时 序数 据 具 有 良好 
的 效果 '" 。 在 中 文 信息 处 理 领域 ,计算 中 文字 符 捉 ， 
如 词语 .词组 等 的 相似 度 计算 对 词典 编纂 、 基 于 实例 的 
机 器 翻译 、 自 动 问答 、 信 息 过 滤 等 都 具有 重要 的 作 
昌 ”。 此 外 ,序列 比 对 算法 在 中 文 里 的 应 用 根据 所 比 
对 字符 粒度 大 小 和 比 对 方式 的 不 同 还 能 用 于 语义 挖 
所 文本 分 类 与 聚 类 个 性 化 推荐 .智能 检索 等 。 

序列 比 对 算法 源 于 生物 信息 学 领域 ,是 对 序列 进 
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的 计算 方法 越 来 越 多 , 王 春 柳 等 中 整理 了 近 20 年 文本 


行 分 析 从 而 了 解 基因 结构 和 功能 最 常用 和 最 经 典 的 研 
究 手段 ,通常 是 对 蛋白 质 之 间或 核酸 序列 之 间 两 两 比 
对 ,通过 比较 两 个 序列 之 间 的 相似 区 域 和 保守 性 位 点 
寻求 同 源 结构 ,揭示 生物 进化 ,小 传 和 变异 等 问题 。 


相似 度 计算 领域 的 经 典 文献 ,从 表面 文本 相似 度 计算 
方法 和 语义 相似 度 计算 方法 两 方面 进行 曾 述 ,其 中 语 
义 相似 度 计 算 方法 中 的 基于 语料库 的 方法 是 该 领域 最 
为 主要 的 研究 方向 。 基 于 字符 串 的 方法 、 基 于 语料库 
的 方法 .基于 知识 库 的 方法 和 混合 方法 ”是 大 多 数 
学 者 比较 认可 的 分 类 方式 。 在 以 往 的 文本 相似 度 算法 
研究 中 ,基于 字符 串 的 文本 相似 度 计算 方法 包括 编辑 
距离 RKA AER UN 元 模型 
等 ,其 中 序列 比 对 算法 属于 最 长 公共 子 序列 方法 中 的 


序列 比 对 算法 根据 同时 比 对 序列 的 数量 分 为 双 序列 比 
对 与 多 序列 比 对 。1970 年 ,S. B. Needleman 5j C. D. 
Wunsch 提出 了 全 局 比 对 的 双 序列 比 对 算法 " ;1975 
^E., T. F. Smith 与 M. S. Waterman 在 S. B. Needleman 与 
C. D. Wunsch 所 提出 算法 的 基础 上 提出 了 改进 的 双 序 
列 局 部 比 对 算法 ; 随 着 所 比 对 序列 数目 和 序列 长 度 
的 增加 ,1987 年 由 D. F. Feng 和 R. F. Doolittle 提出 了 
多 序列 比 对 算法 ;之 后 , 随 着 生物 信息 学 的 不 断 发 
展 ,出 现 了 诸多 序列 比 对 的 工具 及 软件 ,并 不 断 改进 更 
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新 ,包括 blast! HMM!" ,CLUSTALW''* , T-COFFE 
等 。 近 年 来 序列 比 对 算法 的 相关 研究 多 是 关于 多 序列 
比 对 的 改进 与 加 速 ,以 便于 更 深入 地 对 基因 及 蛋白 质 
进行 研究 ””。2010 年 徐 硕 ”提出 了 基于 双 序列 比 
对 的 中 文 术语 语义 相似 度 计算 的 新 方法 ,发 现 并 克服 
了 传统 的 语义 相似 度 计算 方法 的 一 些 问题 ,但 没有 考 
虑 到 特殊 情况 下 语词 顺序 对 于 相似 度 计算 的 影响 , 即 
当 所 比较 文本 中 的 相 邻 语词 顺序 互 换 且 含义 不 变 的 情 
况 下 ,如 < 焦虑 ,抑郁 > 与 < 抑郁 ,焦虑 > ,使 用 该 方法 
计算 得 到 的 文本 相似 度 为 0.5 ,而 实际 则 应 当 为 1。 在 
王 汀 ”提出 的 全 局 比 对 算法 中 ,参考 田 久 乐 ”* 运 用 同 
义 词 词 林 计算 的 语词 相似 度 提升 了 序列 比 对 算法 在 文 
本 相似 度 计算 中 的 准确 性 ,但 该 方法 仅 适 用 于 语词 均 
售 手 同义词 林 的 文本 才 有 较 好 的 效果 , 且 没有 考虑 语 
ip elit eR 

采用 Word2vec 神经 网 络 语言 模型 进行 词 向 量 训 
过 语 料 训练 将 词语 映射 到 低 维 高 密度 的 向 量 空 
不 仅 解决 了 传统 向 量 空间 模型 的 “维度 灾难 ” 问 
题 不 兼顾 了 词语 之 间 的 语义 联系 ”。 本 文 基于 
ori vec 构建 语词 对 打分 矩阵 ,使 得 序列 比 对 算法 在 
文本 的 比 对 中 兼顾 的 语词 之 间 的 联系 与 含义 , 提 
天 了 D 该 方法 的 准确 性 。 设 定好 打分 规则 并 结合 该 算法 
的 优势 ,即使 所 比 对 文本 中 存在 不 含 于 语料库 的 语词 ， 
同 以 能 计算 出 文本 相似 度 。 在 解决 前 人 研究 所 存在 的 
- 透 问题 的 基础 上 ,本 文 的 方法 针对 实证 部 分 的 文本 
数据 进行 预 处 理 , 分 词 ,排列 构成 规范 的 中 文 序列 , 运 
用 进 练 好 的 Word2vec 中 的 Skip-Gram 模型 构建 好 语词 
对 晤 分 矩阵 并 设 定好 打分 规则 ,然后 对 中 文 序列 进行 
比 对 ,计算 不 同 中 文 序列 之 间 的 相似 度 , 与 传统 的 序列 
比 对 算法 进行 比较 。 


2 Word2vec 与 序列 比 对 算法 


2.1 Word2vec 

Word2vec 是 Google 于 2013 年 以 深度 学 习 的 思想 
为 基础 开发 的 一 种 词 向 量 模型 ,主要 用 于 实现 文本 信 
息 由 非 结构 化 形式 到 向 量化 形式 的 转变 。 自 发 布 
以 来 ,Word2vec 已 在 自然 语言 处 理 领 域 得 到 了 广泛 的 
应 用 ,以 其 为 基础 进行 的 各 种 研究 也 在 逐步 递增 ， 
Word2vec 目前 已 成 为 自然 语言 处 理 领域 最 具 代 表 性 
的 工具 之 一 。Word2vec 通过 学 习 文本 可 以 将 字 词 转 
换 为 向 量 的 形式 ,并 用 词 向 量 的 方式 表征 词 的 语义 信 
息 ”。 此 外 ,Word2vec 作为 一 种 自然 语言 处 理工 具 ， 
其 最 大 的 特点 之 一 就 是 以 上 下 文 信息 为 基础 实现 词 的 


特征 表示 ,从 而 解决 维度 灾难 的 问题 。 

基于 训练 词 向 量 方式 的 不 同 ,Word2vec 又 可 分 为 
CBOW 与 Skip-Gram 模型 ,其 中 ,CBOW 将 语词 的 上 下 
文 作为 输入 以 预测 语词 的 信息 ;Skip-Cram 则 是 将 语词 
作为 输入 来 预测 其 上 下 文 信息 ; 相 较 而 言 ,两 种 训练 方 
式 中 CBOW 模型 在 处 理 小 型 语 料 时 效果 更 好 ,而 Skip- 
Gram 模型 则 更 适用 于 处 理 大 型 语 料 “” 。 
2.2 序列 比 对 算法 

序列 比 对 算法 源 于 生物 信息 学 领域 ,通常 是 指 将 
两 条 DNA 或 氨基 酸 序列 排列 在 一 起 并 标明 其 相似 处 ， 
序列 中 可 插入 空位 符 , 以 使 得 序列 中 尽 可 能 多 的 相同 
或 相似 的 符号 排 在 同一 列 上 。 总 体 来 说 ,该 算法 分 两 
类 :一 类 由 S. B. Needleman 5j C. D. Wunsch dip .FH 
于 比较 两 个 序列 之 间 整 体 相 似 性 , 称 为 全 局 比 对 ; 另 一 
类 则 由 T.F. Simth 5j M. S. Waterman 提出 ,用 于 比 
较 序 列 中 部 分 片段 的 相似 性 , 即 局 部 比 对 ” 。 序 列 比 
对 算法 在 文本 相似 度 中 的 应 用 ,目前 在 图 情 领域 的 研 
究 主 要 针对 全 局 比 对 算法 ,该 方法 将 文本 中 的 语词 看 
作 字 符 来 进行 比较 ,将 两 文本 中 的 相同 语词 比 对 在 同 
一 列 上 ,然后 根据 打分 规则 给 所 比 对 的 语词 打分 ,最 后 
依据 这 些 打分 来 计算 两 文本 的 相似 度 。 随 着 生物 信息 
学 的 发 展 ,为 获得 更 高 质量 的 比 对 结果 ,序列 比 对 算法 
参考 基于 大 量 的 核酸 (DNA 与 RNA ) 或 氨基 酸 的 概率 
统计 而 获得 的 打分 和 矩阵 来 比 对 序列 。 
2.2.1 BLOSUM62 打分 矩阵 

1992 年 ,S. Henikoff 和 J. G. Henikoff 为 解决 序列 
远 距 离 的 相关 问题 ,从 蛋白 质 模块 数据 库 Blocks 中 找 
出 一 组 替代 矩阵 BLOSUM 并 给 出 了 BLOSUM62 和 矩阵 
的 设计 理念 与 方法 。 

BLOSUM62 矩阵 采用 log-odds 打分 ,log-odds 取 同 
源 与 非 同 源 的 可 能 性 比例 的 自然 对 数值 ,如 两 个 残 基 
a 与 5( 可 视 为 氨基 酸 ) 在 BLOSUMG2 中 的 得 分 s(a,5) 
计算 公式 如 下 : 


1 P, . 
s(a,b) = log FY 公式 (1) 
aJ b 


Arp f, 5 f, 是 指 假定 残 基 a 与 是 非 同 源 的 且 
独立 的 , 则 a 与 5 出 现在 任何 一 个 蛋白 质 氮 基 酸 序列 
中 的 平均 背景 频率 ;Pu 是 指 在 已 有 同 源 序列 中 假定 
为 同 源 的 残 基 a 与 5 出现 的 目标 频率 ;和 为 尺度 参 
数 。 

参照 所 统计 的 各 种 氨基 酸 残 基 的 背景 频率 以 及 公 
式 (1) 可 以 得 到 一 个 BLOSUM62 打分 矩阵 ,如 图 1 所 
不 : 
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S -1 4 

T-1165 

P -3 -1 -1 7 

A 0 1 0 -14 

G -3 0 -2 -2 0 6 

N -3 1 0 -2 -2 0 6 

D -3 0 -1 -1 -2 -1 1 6 

E -4 0 -1 -1 -1 -2 0 2 5 

Q -3 0 -1 -1 -1 -2 0 0 2 5 

H -3 -1 -2 -2 -2 -2 1 -1 0 0 8 

R -3 -1 -1 -2 -1 -2 0 -2 0 1 0 5 

K-30-1-1-1-20-11 1-12 5 

M -1 -1 -1 -2 -1 -3 -2 -3 -2 0 -2 -1 -1 5 

I -1 -2 -1 -3 -1 -4 -3 -3 -3 -3 -3 -3 -3 1 4 

L -1 -2 -1 -3 -1 -4 -3 -4 -3 -2 -3 -2 -2 2 2 4 

V -1 -2 0 -2 0 -3 -3 -3 -2 -2 -3 -3 -2 1 3 1 4 

F -2 -2 -2 -4 -2 -3 -3 -3 -3 -3 -1 -3 -3 0 0 0 -1 6 

Y -2 -2 -2 -3 -2 -3 -2 -3 -2 -1 2 -2 -2 -l -1 -l -1 3 

W -2 -3 -2 -4 -3 -2 -4 -4 -3 -2 -2 -3 -3 -1l -3 -2 -3 1 2 11 
CSTPAGND QH RK MILVFIY 


图 1 BLOSUMG2 打分 矩阵 


2 动态 规划 算法 Needleman-Wunsch 

1970 年 ,S. B. Needleman 与 C. D. Wunsch 提出 了 
比 对 算法 '”1 ,该 算法 从 整体 上 分 析 两 个 序列 的 关 
系 芭 考虑 序列 总 长 来 进行 比 对 以 使 得 全 局 相似 最 大 
从 局 该 方法 属于 动态 规划 算法 ” ,应 用 于 最 优化 的 问 
题 求 解 , 组 合子 问题 的 解 来 得 到 整个 问题 的 解 ,可 认为 
在 号 组 解 当 中 选择 合适 的 解 以 达到 整体 最 优 的 效果 。 
礁 吝 列 比 对 中 ,动态 规划 的 思想 为 :任何 一 个 在 最 优 路 
逢 自 终 止 的 点 所 对 应 的 子路 径 必然 是 终止 于 这 一 点 的 
ROB ede gn 

全 局 比 对 算法 的 基本 思想 是 ,在 设 定好 打分 规则 
与 税 建 好 的 打分 矩阵 的 基础 上 ,将 两 条 待 比 对 序列 放 
玉 和 三维 表 中 沿 纵横 轴 放 置 。 比 对 从 Gap 开始 进行 ,在 
进 笃 比 对 的 过 程 中 , 任 一 位 置 的 比 对 都 有 3 种 延伸 广 
式 弄 进 行 到 比 对 结束 为 止 :D 沿 对 角 线 延伸 ,此 时 所 比 
对 的 字符 若 能 匹配 , 则 按照 打分 矩阵 中 的 打分 给 予 一 
个 奖励 分 值 , 若 不 匹配 则 罚 分 ;@ 纵 向 延伸 ,此 时 纵向 
序列 的 字符 无 法 与 横向 序列 所 对 应 的 字符 匹配 , 则 
横向 序列 在 该 位 置 插入 一 个 空位 符 ” - ”来 与 纵向 序 
列 的 字符 进行 匹配 并 罚 分 ;@ 横 向 延伸 ,反之 ,此 时 
则 是 横向 序列 的 字符 无 法 与 纵向 序列 所 对 应 的 字符 
匹配 ,在 纵向 序列 插入 “ - "来 与 横向 序列 的 字符 进 
行 匹配 并 罚 分 。“ - ”表示 有 时 候 为 使 得 序列 的 比 对 
获得 整体 最 优 的 比 对 结果 ,所 比 对 的 两 条 序列 中 在 
某 个 位 置 上 有 一 条 序列 会 以 * -的 形式 与 另 一 条 序 
列 的 字符 对 应 。 依 次 不 断 延伸 迭代 会 出 现 多 个 最 终 
解 ,每 个 解 的 值 则 是 比 对 过 程 中 所 有 字符 打分 结果 
的 奖励 分 值 和 罚 分 分 值 的 加 和 , 取 最 高 分 值 作为 该 
比 对 的 最 优 解 ,回溯 得 到 最 优 解 的 比 对 路 径 , 得 到 最 


终 长 度 相 等 的 两 条 序列 。 其 中 ,通过 右 下 角 按 照 最 
优 解 的 得 分 进行 回溯 可 以 得 到 完整 的 比 对 路 径 , 但 
是 在 比 对 过 程 中 ,全 局 比 对 算法 是 一 种 递归 算法 ,其 
比 对 过 程 存在 很 多 重复 计算 ,在 获得 最 优 得 分 与 最 
优 比 对 路 径 的 过 程 中 相当 于 做 了 正比 于 矩阵 大 小 的 
n xm 次 操作 ,其 时 间 复 杂 度 为 0(n2)。 回 溯 是 为 了 
确保 比 对 过 程 的 完整 性 与 准确 性 并 获得 两 序列 的 比 
对 长 度 , 因 为 比 对 的 过 程 若 存在 空位 的 插入 会 改变 
序列 的 初始 长 度 。 

图 2 中 展示 了 序列 1 = 1V,D,S,C,Y| 与 序列 2 = 
| V,E,S,L,C,Y] 的 部 分 比 对 过 程 。 


Gp vy D S c Y 
Gap ES 
4 
V j 1 Le] $-—29 2-40 
2 
E Ys dh (e 三 二 
s |2 A VS Som 
| l | uj N! 
L ja 名 i 3 *9 — 2 
E 
e |'s55 40. 07 2 8 ~ 7 
l | | l l 
Y^ |se s 3 23 a “i 


图 2 序列 比 对 的 部 分 过 程 


参考 图 1 rp OT HB EX ERE UIT AY BLU, ID 
配 则 给 予 一 个 奖励 分 值 (对 应 图 1) , 若 出 现 不 匹配 或 
空位 则 罚 分 Gap = - 11 ,在 生物 信息 学 领域 的 研究 中 
通常 取 Gap = - 11 ,该 分 值 可 在 序列 比 对 过 程 中 自由 
调整 ,以 得 到 较 好 的 比 对 结果 为 准 。 两 条 序列 的 比 对 
从 Gap 开始 进行 ,此 时 两 条 序列 的 空位 相互 对 应 得 分 
为 0, 从 Gap 开始 不 断 比 对 并 延伸 ,每 个 位 置 都 有 3 种 
比 对 情况 ,以 Gap 处 的 延伸 为 例 , 沿 对 角 线 比 对 ,此 时 
序列 1 与 序列 2 的 字符 “V” 匹 配 并 参考 图 1 能 够 获得 
4 分 ,此 时 的 匹配 为 完全 匹配 ;横向 比 对 ,此 时 序列 1 
与 序列 2 无 法 匹配 , 故 序列 2 插入 一 个 * - "来 与 序列 
1 的 字符 “V "匹配 ,此 时 惩罚 11 分 (得 -11 分 ) ,此 时 
的 匹配 称 为 空位 罚 分 ,反之 ,纵向 比 对 则 是 序列 2 的 字 
符 “V” 与 序列 1 的 * - "匹配 ,同样 惩罚 11 分 。 图 2 
中 ,序列 1 的 第 二 个 字符 "D" 与 序列 2 的 第 二 字符 “E” 
并 不 相同 ,但 参考 打分 矩阵 仍 能 得 到 2 分 是 因为 在 生 
物 信息 学 氨基 酸 统计 背景 下 两 字符 具有 一 定 的 相似 关 
系 , 表 示 相 似 匹配 ,类 似 于 具有 相似 性 的 语词 作 比 对 ， 
例如 “开心 ”与 “快乐 "进行 比 对 ,此 时 加 上 上 一 位 置 
“V" 与 “V” 所 得 的 4 分 ,在 当前 位 置 则 获得 6 分 。 不 断 
延伸 递归 , 取 最 终 累计 分 值 最 高 的 解 作为 最 优 解 并 回 
湖 该 最 优 解 的 比 对 路 径 ,获得 比 对 结果 如 表 1 BER: 
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表 1 最 优 解 的 比 对 路 径 
完全 匹配 相似 匹配 完全 匹配 空位 罚 分 完全 匹配 完全 匹配 


序列 1 V D S = C Y 
序列 2 V E S L C Y 
打分 4 2 4 -11 9 7 


3 ”改进 的 中 文 序列 比 对 算法 


本 文 在 前 人 研究 的 基础 上 ,提出 一 种 改进 的 中 文 
序列 比 对 算法 ,将 基于 百度 百科 语料库 所 训练 的 
Word2vec 应 用 到 全 局 比 对 算法 中 。 首 先 ,本 文 参考 已 
有 文献 ”给 出 以 下 定义 , 称 语料库 中 存在 的 语词 为 
基础 词 ;在 实证 部 分 所 用 到 的 数据 集中 出 现 但 语料库 
中 又 不 存在 的 语词 称 为 非 基础 词 ;同时 还 存在 这 样 的 
词 5 在 所 要 比 对 的 两 文本 经 过 分 词 后 , 若 存 在 某 一 文本 
的 年 意 两 个 相 邻 语词 交换 顺序 后 与 另 一 文本 的 任意 两 
外相 邻 语词 完全 匹配 , 则 将 所 比 对 的 两 文本 中 的 相 令 
请 济 合 并 且 称 之 为 重复 词 ,所 比 对 的 两 文本 中 的 重复 
词 到 构成 重复 词 对 ,例如 所 要 比 对 的 两 文本 分 词 后 出 
现 的 相 邻 词 分 别 为 1 焦虑 ,抑郁 | 与 1 抑郁 ,焦虑 1, 则 将 
两 给 词 合并 为 重复 词 | 焦虑 抑郁 | 与 重复 词 | 抑郁 焦 
诬 NJ 此 时 可 以 称 | 焦虑 抑郁 | 与 | 抑郁 焦虑 | 为 重复 词 

本 文中 所 比 对 的 中 文 序列 是 由 基础 词 , 非 基础 词 、 
词 等 所 构成 的 文本 序列 。 

给 定 一 个 文本 集合 ,经 过 一 系列 规范 化 处 理 得 到 
于 个 中 文 序列 集合 :CS = | cs cs ,cs;,… ,Cs,| ,其 
中 全 = [hasha t t tn bin RR i NPY 
列 于 第 人 个 语词 。 首 先 通过 Word2vec 将 序列 中 的 语 
Yer Aris E EHE ,与 5, 词 向 量 的 余弦 相似 度 ， 
构建 好 语词 对 打分 矩阵 并 定义 好 打分 规则 ,然后 对 于 
CS 中 任意 两 个 要 进行 比 对 的 中 文 序列 es usta, 
assu S es; m tatis ostium tu E 进行 序 
列 比 对 获取 两 中 文 序列 比 对 的 最 优 解 ,回溯 最 优 解 的 
比 对 路 径 ,最 后 计算 两 序列 的 相似 度 sim ( es; cs) ) o 

3.1 传统 的 序列 比 对 方法 

传统 的 序列 比 对 方法 将 文本 进行 分 词 后 ,把 所 比 
对 文本 的 语词 看 作 字符 来 进行 比较 。 如 图 3 所 示 , 首 
先 将 目标 文本 预 处 理 成 规范 的 中 文 序列 集 ,对 其 中 任 
意 两 个 中 文 序列 es; 与 es; 进行 全 局 比 对 ,在 比 对 之 前 
首先 定义 好 打分 规则 ,如 公式 (2) 所 示 , 若 所 比 对 的 两 
语词 完全 相同 或 具有 相似 的 关系 , 则 予以 它们 一 个 打 
AT sim (t ptp) WO - 1.0 ZH], TELE GSERE PT 
获得 全 局 最 优 解 , 某 些 位 置 上 会 存在 空位 罚 分 ,此 时 的 
比 对 罚 分 Gap = -0.05( 参 考 前 人 的 研究 ,本 文 方法 取 


T 


J 


Gap = -0.05 以 便于 与 前 人 的 研究 进行 比较 ) 。 然 后 
比 对 es; 与 es, ,获得 比 对 的 最 优 解 并 回溯 该 最 优 解 的 比 
对 路 径 ,最 后 参考 公式 (3 ) 计 算 两 中 文 序列 的 相似 度 。 


csi 与 cs; 比 对 的 回潮 cs, Ej cs; 最 优 解 的 


比 对 路 径 


相似 度 计算 结果 
序列 比 对 算法 


3 传统 序列 比 对 算法 计算 文本 相似 度 计算 


simt; , b ) if t; 8 "moon , NES n o 
inti -)z2Gap- -0.05 


if 1j, z" LI 
sim( — ,t,,) 2 Gap = -0.05 ifi;,-"-" 
公式 (2) 
sim(t; , ) : 
sim(cs;,c5;) = Nd S 公式 (3) 


基于 上 述 步骤 ,中 文 序列 比 对 的 问题 就 转化 成 了 
基于 动态 规划 算法 S. B. Needleman 与 C. D. Wunsch 的 
全 局 比 对 递归 求 最 优 解 的 过 程 。 以 “双向 情感 抑郁 焦 
虑 "与 “双向 情感 焦虑 抑郁 ”为 例 , 经 过 分 词 后 ,得 到 两 
个 中 文 序列 cs, = | 双向 ,情感 ,抑郁 ,焦虑 | 与 cs = DX 
向 ,情感 ,焦虑 ,抑郁 上 , 比 对 过 程 见 图 4。 由 于 中 文 普 
遍 存 在 “前 轻 后 重 ” 的 情况 ,对 中 文 序 列 从 尾 到 头 进行 
比 对 。 此 时 ,从 GAP 开始 比 对 , 竖 直 箭头 表示 纵向 延 
伸 , 即 在 cs; 所 对 应 的 位 置 插入 一 个 空位 符 ,水平 箭 头 
表示 在 cs 所 对 应 的 位 置 插入 一 个 空位 符号 ,空位 符 的 
插入 使 得 所 比 对 的 两 条 序列 在 最 终 比 对 路 径 下 长 度 相 
等 并 确定 比 对 长 度 为 L=5。 


双向 情感 焦虑 HER GAP 


双向 2.90. -0.25 -0.25+—-0.20  -0.20 


N00 
情感 1.85。 [1.90 | -0.20。 -0.15 -0.15 
N00 

抑郁 0.80«— 0.85«—/0.9029* 0.95 | -0.10 
NL | 

焦虑 -0.20* 一 -0.15* 一 -0.10* 一 -0.05 |-0.05 
NG [oos 

GAP -0.20«— -0.15«— -0.10 4—-0.05.—-0.00 


图 4 中 文 序列 比 对 过 程 


在 图 4 中 最 终 分 值 为 2.90 的 解 分 值 最 高 ,为 最 优 
解 ,从 头 到 尾 回溯 该 最 优 解 的 比 对 路 径 ,得 到 如 表 2 所 
示 长 度 相同 的 两 序列 ,回溯 比 对 路 径 是 为 了 得 到 正确 
无 误 的 最 优 比 对 结果 同时 确定 序列 的 最 终 比 对 长 度 ， 
因为 比 对 的 过 程 奉 存 在 空位 的 插入 会 改变 序列 的 初始 
长 度 。 最 后 执行 公式 (3 ) ,两 个 中 文 序列 之 间 的 相似 
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度 结 果 为 sim( cs; ,cs;) =(1+1-0.05 +1 -0.05)⁄5 = 
0.58, 
52 cs, E es; 最 优 解 的 比 对 路 径 


csi 双向 情感 焦虑 抑郁 - 
6s; 双向 情感 E 抑郁 焦虑 
打分 1 1 -0.05 1 -0.05 


3.2 ”基于 Word2vec 的 语词 相似 度 计算 

本 文 方法 的 核心 是 构建 一 个 供给 中 文 序列 比 对 参 
考 的 语词 对 打分 矩阵 ,该 打分 矩阵 的 实质 则 是 所 进行 
比 对 的 任意 两 序列 cs 与 cv 中 语词 之 间 的 向 量 余弦 
值 。Word2vec 基于 上 下 文 环境 相似 的 两 个 词 有 着 近 
似 含义 的 思想 ,经 过 大 量 语 料 训练 之 后 ,可 以 很 好 地 表 
示 出 语词 的 词 向 量 并 通过 计算 向 量 余 弦 值 来 量化 语词 
对 在 数值 上 的 关系 ,这 种 方式 与 生物 信息 学 领域 基于 
大 宕 统计 来 构建 核酸 与 蛋白 质 的 打分 抢 阵 的 思想 十 分 
据闻 ,于 是 本 文 使 用 丰富 的 百度 百科 语料库 来 训练 
Wg2vec 的 Skip-Gram 模型 并 计算 中 文 序列 的 语词 对 
EDUC. 
< 二 语词 相似 度 计算 如 图 5 所 示 , 首 先 对 目标 文本 进 
得 帝 处 理 并 分 间 , 规 范 化 处 理 为 CS, 对 于 CS 中 的 中 文 
序列 并 不 是 两 两 之 间 随 机 进行 比 对 ,而 是 按照 要 求 先 
(quem CS 区 从 为 所 要 进行 比 对 的 两 个 中 文 序列 入 
全 然后 针对 两 中 文 序列 集合 中 的 任意 


cs 与 cy 进行 


比 对 。 比 对 前 ,要 先 获取 语词 相似 度 来 构建 打分 矩阵 ， 
语词 相似 度 集合 计算 过 程 如 下 : 

(1) 首 先 分 别 获取 两 中 文 序列 集合 中 所 有 要 比 对 
的 es, = [tastas tSt ba Sc = 
t,，… ,ti,| 的 全 部 语词 ,并 去 重 以 避免 大 量 重复 计算 。 

(2)cs; 与 cy 中 的 任意 语词 0,53 ,存在 一 些 不 含 
于 训练 好 的 Word2vec 中 的 特殊 名 词 或 英文 缩写 ,从 语 
词 集合 中 清除 掉 这 些 词 。 

(3) 通 过 训练 好 的 Word2vec 将 含 于 其 中 的 1, 与 
t ,向 量化 并 计算 余弦 相似 度 以 构建 语词 对 打分 矩阵 。 

(4) 对 所 有 要 比 对 的 es; = | 
与 cs = 站 进行 遍历 , 找 出 其 中 在 
在 的 重复 词 对 , 即 对 于 所 要 比 对 的 es; 与 cy ,依次 选中 
cs; 5j cs, 中 的 任意 相 邻 语词 6, totp 5 t au ERE 
cs, 的 相 邻 语词 位 置 互 换 , 最 后 将 相 邻 语词 合并 成 单个 
词 的 形式 即 友和 tstiyu 并 进行 相互 匹配 ,不 断 将 两 
序列 之 间 的 相 邻 语词 构成 词组 并 相互 匹配 ,直到 两 序 
列 的 最 后 两 个 词组 匹配 结束 ,筛选 出 匹配 过 程 中 完全 
匹配 的 词组 作为 重复 词 对 。 参 考 文献 的 相似 度 计 
算 方法 与 词 向 量 模型 计算 重复 词 对 的 相似 度 记 为 sim 
C autas boba) ALEA sim (t gtir, 
bptinr1) = 工 。 


t 


Word2vec 


= 预 处 理 
^ 百度 百科 文本 — 百度 百科 语料库 L— 
© A 


c 
到 目标 文本 


EM Sim(libltip) 


似 度 


[一 让 任意 语词 it 与 加 


CS- (c51,c52,...,C5;...CSj,...,CSn) 
CSi— dti nti a otis. lim} 


L9 cs;5jes; 上 一 


sim(tikti eit pl;p1) 


是 


CSj ng fia] 


— 


RSS (totae) 
与 [72727] H 


sim(t;itik+1 lj pl;p+1)=1 


可 直接 计算 
8 


图 5 语词 对 相似 度 计 算 


3.3 改进 的 中 文 序列 比 对 算法 

传统 方法 将 中 文 序列 的 语词 视 作 字符 来 进行 比 
对 ,忽略 了 语词 之 间 的 含义 。 所 进行 比 对 的 两 中 文 序 
列 若 存在 重复 词 对 ,其 效果 会 有 一 定 影 响 。 本 文 提 出 
了 基于 词 向 量 模型 的 中 文 序 列 比 对 的 方法 ,使 用 
Word2vec 来 构建 语词 对 打分 矩阵 ,兼顾 了 语词 之 间 的 
含义 并 提高 了 比 对 效果 ,所 设 定 的 规则 还 解决 了 所 比 
对 的 中 文 序列 出 现 重复 词 的 问题 。 

本 文具 体 方法 如 图 6 所 示 , 笔 者 首先 对 几 处 重要 


概念 进行 声明 :四 打分 冰 值 入 取 0 -1.0 之 间 ) , 当 语 
词 之 间 的 向 量 余 艾 值 大 于 该 数值 则 放 入 语词 对 打分 矩 
阵 ,否则 放 入 非 打 分 词 库 ;@ 语 词 对 打分 矩阵 ,余弦 相 
似 度 大 于 入 的 所 有 语词 对 ,供给 中 文 序列 比 对 时 参考 ; 

@ 非 打分 词 库 , 余 弦 相似 度 小 于 A 的 所 有 语词 对 ,以 及 
无 法 通过 Word2vec 计算 相似 度 的 语词 对 , 若 入 改变 ， 
非 打 分 词 库 会 用 以 调整 语词 对 打分 矩阵 ;四 打分 规则 , 
比 对 过 程 中 ,所 比 对 的 两 个 语词 含 于 语词 对 打分 矩阵 ， 

按 和 矩阵 中 的 数值 打分 , 比 对 中 空位 比 对 罚 0. 05 分 ( 打 
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分 -0.05 分 ) ,不 匹配 罚 0.05 分 (打分 -0.05 分 ) 

首先 将 在 线 健康 信息 网 站 与 在 线 学 术 网 站 的 数据 
预 处 理 .分词 并 表示 成 规范 化 的 CS, 对 于 CS 中 需要 进 
行 比 对 的 任意 两 条 序列 cs, 与 ,判断 两 序列 中 的 任意 
语词 6, 与 4, 是 否 含 于 语料库 ,车 否 , 则 将 其 放 入 “ 非 打 
分 词 库 ”中 ; 符 是 , 则 4 与 培 ,可 被 Word2vec 表示 为 空 
间 上 的 特征 向 量 并 计算 获得 余弦 值 sim Ct, , 当 满 
JE sim (1,4 ,,,) > 和 A, 则 将 该 语词 对 放 入 语词 对 打分 箱 
阵 中 ,和 否则 将 该 语词 对 放 入 “ 非 打 分 词 库 "当中 。 

在 进行 比 对 之 前 ,要 先 处 理 所 进 行 比 对 的 中 文 序 
列 中 存在 的 重复 词 ,遍历 所 要 比 对 的 任意 两 条 序列 cs, 
与 cy , 若 两 序列 之 间 不 存在 重复 词 对 则 将 这 两 条 序列 
放 入 “规范 的 CS” 中。 否则 将 这 两 条 序列 放 入 “ 待 处 理 
的 6S” 中 并 计算 相关 语词 的 相似 度 与 入 比较 , 若 大 于 
和 期 故 入 语词 对 打分 矩阵 中 ,小 于 入 则 放 入 非 打分 局 


库 。 阁 均 无 法 计算 , 则 默认 重复 词 对 的 相似 度 为 1 并 
放 和 语词 对 打分 矩阵 中 。 

上 述 步 又 进行 完毕 之 后 ,得 到 两 类 中 文 序列 “规范 
的 CS” 与 “ 待 处 理 CS” 和 一 个 完整 的 语词 对 打分 矩阵 。 
而 此 时 ,所 比 对 序列 中 存在 的 重复 词 对 已 被 选 出 加 入 
到 打分 矩阵 ,而 “ 待 处 理 的 CS” 中 的 中 文 序列 虽然 含有 
重复 词 ,但 是 其 中 构成 重复 词 的 相 邻 语词 还 尚未 合并 ， 
因此 需要 将 所 有 重复 词 对 放 入 分 词 词 表 中 ,并 对 “ 待 处 
EB CS "重新 分 词 构 成 规范 的 CS" s 

最 终 得 到 完整 的 “规范 的 CS "以 及 语词 对 打分 矩 
阵 ,按照 上 述 打分 规则 并 参考 语词 对 打分 矩阵 ,对 “ 规 
范 的 CS” 中 的 中 文 序列 进行 比 对 , 求 取 比 对 的 最 优 解 ， 
回溯 该 最 优 解 的 比 对 路 径 ,参考 公式 (3 ) 得 到 相似 度 
计算 结果 。 


co 
N 在 线 健康 网 站 
语料库 

S 在 线 学 术 网 站 

训练 
er 采集 Y Word2vec 
e 目标 文本 集 
2 预 处 理 | 2 4 与 向 量化 
O CS-(cs1,052,...,CSi,...,CSn) hu St RT 
e 语料库 
N sim(t;st;p) sim(;,,5)*X 
> 是 
又 peg 5 构建 语词 对 
e V HycS 非 打分 词 库 打分 矩阵 
c — 分词 词 表 5 
C (0) 计算 重复 词 对 
© 的 相似 度 

i 
L 待 处 理 的 CS | l 序列 比 对 算法 
i 
新 分 记 最 优 解 C 最 优 解 的 比 对 路 径 
Y 


规范 的 CS 


sim(csi,cs;) 


6 改进 的 中 文 序列 比 对 算法 


4 实证 研究 


4.1 中 文 序列 的 获取 与 规范 化 处 理 

本 文 的 实证 研究 数据 选 自在 线 健康 信息 网 站 与 在 
线 学 术 网 站 , 相 比 之 下 ,在线 健 康信 息 网 站 的 咨询 文本 
数据 较为 元 杂 且 用 户 群 体 分 布 广泛 ,存在 很 多 表达 不 
规范 错字、 漏 词 等 问题 。 在 线 学 术 网 站 的 数据 大 多 遵 
循 严格 的 范式 并 且 表 达 方 式 规范 。 本 文 将 序列 比 对 算 


法 分 别 用 于 两 类 数据 中 并 证 实 该 算法 的 可 用 性 。 

综合 比较 国内 在 线 健康 信息 网 站 排行 榜 中 网 页 的 
百度 权重 、PR 值 流量 排名 等 综合 统计 结果 ,以 及 数据 
的 可 靠 性 、 完 整 性 \ 易 获取 性 等 ,本 文选 取 了 “好 大 夫 在 
线 " 这 一 健康 信息 网 站 为 目标 ,并 利用 PyCharm 所 设计 
的 疏 虫 程序 获取 了 2019 年 1 月 1 日 -2019 年 2 月 27 
日 的 5 658 名 患者 与 医生 咨询 文本 作为 在 线 健康 信息 
数据 集 ; 在 众多 的 在 线 学 术 网 站 中 ,鉴于 CNKI 直观 简 
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洁 的 页 面 、 简 单 易 用 的 检索 方式 以 及 广泛 的 论文 覆盖 
度 , 本 文 从 CNKI 导出 了 2017 年 2 月 -2019 年 2 月 期 
间 以 "个 性 化 推荐 "为 关键 词 检索 出 的 753 篇 中 文 文献 
的 题名 作为 在 线 学 术 资源 数据 集 。 

针对 在 线 健康 信息 数据 集 , 本 文 首 先 清除 了 其 中 
部 分 无 效 数据 ,如 :“ 救 救 我 “ 急 !1”“ 诊 后 报道 ”等 。 由 
于 有 些 患 者 只 是 发 出 提问 而 不 再 有 下 一 步 的 咨询 信 
息 , 本 文 对 患者 与 医生 对 话 次 数 小 于 等 于 2 的 咨询 数 
Ji IER ,最 终 得 到 5 480 位 患者 咨询 文本 信息 。 选 取 


每 一 位 患者 的 咨询 文本 信息 的 第 一 条 对 话 作为 目标 序 
列 (通常 情况 下 ,患者 第 一 条 咨询 对 话 涵盖 了 其 对 自身 
病情 的 具体 描述 ) ,分 词 得 到 共 5 480 条 在 线 健康 信息 
中 文 序列 ;针对 在 线 学 术 资源 数据 集 ,其 表达 形式 已 经 
十 分 规范 ,但 以 “个 性 化 推荐 ”为 关键 词 检 索 出 的 部 分 
文献 ,其 题名 与 个 性 化 推荐 无 关 , 但 其 内 容 可 能 有 关 ， 
本 文 仍旧 保留 这 部 分 文献 题名 数据 ,最 后 对 所 有 的 是 
名 使 用 Python 自 带 的 jieba 分 词 ,最 终 得 到 753 条 在 线 
学 术 资源 中 文 序列 ,部 分 数据 如 表 3 BER: 


RI 在 线 健康 信息 与 在 线 学 术 资 源 中 文 序列 ( 部分) 


在 线 健康 信息 中 文 序列 


在 线 学 术 资 源 中 文 序列 


抑郁 症 ,发 病 , 频 繁 , 木 僵 , 反 应 迟钝 | 
心烦 ,睡觉 , 醒 来 ,难以 ,入 睡 , 精 神 , 不 佳 | 
证 ,出 现 ,头痛 , 头 胀 , 幻 听 ! 

头晕 ,耳鸣 ,心慌 ,心跳 ,睡眠 ,质量 ,不 高 | 

自残 , 失 眼 ,头痛 ,频繁 ,情绪 ,失控 , 骨 江 ,大 内 | 


CN | 反复 ,头痛 ,抑郁 ,状态 ,心烦 ,偶尔 ,发 脾气 
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4@5 语词 对 打分 矩阵 构建 

mur Word2 vec 训练 的 问题 ,笔者 曾 考虑 使 用 实证 
数据 作为 语 料 来 训练 Skip-Gram 模型 ,但 由 于 在 线 健 
信息 的 数据 本 身 就 包含 有 不 规范 的 语词 以 及 分 词 存 
登陆 词 的 问题 ,训练 出 来 的 模型 只 能 适用 于 当前 
数据 而 不 具有 普遍 性 ,同时 数据 量 也 较 小 。 本 文 数据 
选 障 了 在 线 健康 网 站 的 用 户 咨询 信息 ,这 类 信息 多 是 


基于 ,网 络 , 爬 虫 ,技术 ,进行 ,网 站 ,智能 ,应 用 
基于 ,信任 ,社区 ,个 性 化 ,推荐 ,策略 ,研究 | 
基于 ,加 权 , 内 容 , 相 似 ,雷达 ,情报 ,推荐 ,技术 ,研究 | 
移动 ,个 性 化 ,旅游 ,推荐 ,系统 ,模型 ,设计 | 
1 数据 ,基于 ,混合 ,协同 ,过 滤 , 动 态 ,用 户 , 个 性 化 ,推荐 | 


| 数字 ,图 书馆 ,个 性 化 ,移动 ,视觉 ,搜索 ,机 制 ,研究 | 


Zh. 


的 全 面 性 和 规模 ,本 文选 取 百 度 百科 语料库 来 训练 
Word2vec。 使 用 训练 好 的 Word2vee 将 中 文 序列 集中 
所 有 含 于 百度 百科 语料库 的 词语 表示 成 空间 上 的 特征 
向 量 并 计算 语词 对 之 间 的 向 量 余 弦 值 , 见 表 4 及 表 5。 
设 定 入 =0.5 ,将 向 量 余弦 值 大 于 入 的 语词 对 放 入 语词 
对 打分 矩阵 中 ,小 于 入 则 放 和 人 ”" 非 打分 词 库 ” 当中, 即 
可 获得 基于 在 线 健康 信息 中 文 序列 与 在 线 学 术 资 源 中 


TI 


患 异 对 于 其 病 况 和 身体 状态 的 描述 , 极 少 涉及 医疗 领 
域 的 相关 专业 术语 ,考虑 到 训练 Word2vec 所 需 语料库 


文 序 列 的 语词 对 打分 和 矩阵, 方 框 内 的 数值 对 应 满足 入 
=0.5 的 语词 对 。 


Ka X4 在 线 健康 信息 语词 对 打分 矩阵 
情感 抑郁 焦虑 社交 恐惧 抑郁 证 发 病 反应 迟钝 ki 心烦 

情感 1.000 
抑郁 0.389 1.000 
焦虑 0.452 0.810 1.000 
社交 0. 329 0.058 0.002 1. 000 
恐惧 0. 609 0.614 0. 780 0. 000 1.000 

抑郁 症 0. 356 0. 688 0.471 0.175 0. 420 1.000 
发 病 0.077 0.412 0. 264 0. 046 0. 220 0. 694 1.000 

反应 迟钝 0. 169 0.531 0. 444 0. 197 0.351 0. 535 0. 448 1.000 
心烦 0. 048 0. 569 0.571 0. 044 0.351 0.272 0. 158 0. 453 ZE 1.000 


进行 中 文 序 列 比 对 之 前 , 先 对 任意 所 要 比 对 的 两 
条 中 文 序 列 进行 遍历 , 找 出 其 中 存在 重复 词 对 的 序列 
并 将 这 些 序列 放 入 “待人 处理 CS "中 , 若 所 比 对 的 两 条 序 
列 不 存在 重复 词 对 , 则 放 和 "规范 的 CS" 中。 然后 ,将 
遍历 这 些 中 文 序列 所 获得 的 重复 词 对 放 人 停 用 词 表 


中 ,对 “ 待 处 理 的 CS$ "中 的 所 有 中 文 序列 重新 分 词 并 
放 入 “规范 的 CS" 中。 以 cs; = | 数据 ,基于 ,混合 , 协 
同 ,过 滤 ,动态 ,用 户 , 个 性 化 ,推荐 | 与 c= | 基于 , 数 
据 ,社团 ,个 性 化 ,推荐 ,系统 | 为 例 ,遍历 es; 与 es; 之 
后 ,发 现存 在 重复 词 对 | 数据 基于 ,基于 数据 | 。 因 为 
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能 回 香 , RAM, PRI 基于 词 向 量 模型 的 中 文 序列 比 对 研究 [J]. 图 书 情报 工作 ,2020 ,64(10) :86 -98. 


表 5 在 线 学 术 资源 语词 对 打分 矩阵 
大 规模 改进 个 性 化 过 滤 技术 进行 和 矩阵 RX 模糊 

大 规模 1. 000 

改进 0. 394 1.000 
个 性 化 0.036 0.360 1.000 

过 滤 0.073 0.418 0.174 1.000 

技术 0. 409 0.614 0. 370 0.252 1.000 

进行 0. 626 0. 585 0. 174 0. 286 0. 446 1.000 

和 矩阵 0.073 0.234 0.337 0. 309 0.311 0. 193 1.000 

R% 0. 000 0.116 0.211 0. 388 0. 088 0. 105 0. 698 1.000 

模糊 0. 000 0. 068 0. 132 0. 262 0. 000 0. 000 0. 207 0. 288 1.000 


初始 的 es, 与 cy 中 | 数据 ,基于 | 、| 基于 ,数据 | 是 分 开 
的 ,此 时 将 重复 词 对 | 数据 基于 ,基于 数据 | 放 人 分 词 
词 表 中 ,重新 对 es, 与 cy 分 词 ,得 到 cs; = | 数据 基于 , 混 

同 ,过 滤 , 动 态 ,用 户 ,个 性 化 ,推荐 | 与 cy = | 基 
所 六 据 ,社团 ,个 性 化 ,推荐 ,系统 | 并 放 入 “规范 的 CS" 

考 文献 [24] 的 相似 度 计算 方法 与 词 向 量 模型 来 
计 铭 重复 词 对 的 相似 度 , 若 无 法 计算 , 则 默认 相似 度 为 
1 然后 与 比较 ,小 于 入 则 将 该 重复 词 对 放 入 “ 非 打 
全 出 库 "中 ,大 于 则 放 入 语词 对 打分 矩阵 中 。 此 时 ， 
构建 好 语词 对 打分 矩阵 ,最 后 ,对 中 文 序列 的 比 对 只 
TRSKA TAE PERDET A URGE IL f] CS" rp 
的 xcs 与 cs, 进行 比 对 即 可 。 
4. 中 文 序列 比 对 

经 过 前 述 两 个 部 分 ,此 时 已 获得 “规范 的 CS" DÀ 
及 贱 建 好 的 语词 对 打分 矩阵 ,由 于 中 文 文法 的 复杂 性 


T 


和 中 文 表达 的 灵活 多 样 ,在 中 文 里 普遍 存在 “前 轻 后 
重 ” 的 特点 ,所 以 对 中 文 序列 从 尾 到 头 进行 比 对 ,然后 
获取 比 对 的 最 优 解 ,回溯 最 优 解 的 比 对 路 径 ,最 后 计算 
中 文 序列 之 间 的 相似 度 即 可 。 本 文 将 在 线 健康 信息 中 
文 序列 与 在 线 学 术 资 源 中 文 序列 分 别 表示 为 OHICS 
与 OARCS, 并 在 该 部 分 展示 部 分 所 要 进行 比 对 的 中 文 
序列 以 及 这 些 比 对 结果 最 优 解 的 比 对 路 径 。 

对 于 进行 比 对 的 cs 与 es, ,在 比 对 过 程 中 会 有 多 个 
解 ,在 使 用 Pycharm 设计 中 文 序列 比 对 的 算法 时 ,直接 
递归 并 判别 求 取 众多 解 中 的 最 优 解 并 回溯 出 该 最 优 解 
的 比 对 路 径 。 部 分 所 要 对 比 的 中 文 序列 如 表 6 与 表 7 
所 示 , 本 文 将 表 中 左 侧 的 序列 与 右 侧 序列 进行 比 对 。 
例如 对 于 在 线 健康 信息 中 文 序列 , 世 为 cs 5 ID 为 co 
的 序列 进行 比 对 ,了 D 为 cs 与 ID 2g es, 的 序列 进行 比 


对 , 依 此 类 推 ,直到 cs; 与 es, 比 对 结束 。 


"e 表 6 ”所 要 比 对 的 OHICS ( 部 分 ) 
Ow 在 线 健康 信息 中 文 序列 ID 在 线 健康 信息 中 文 序列 
cs] | 睡眠 ,障碍 ,失眠 ,人 睡 ,困难 ! 652 1 失眠 ,焦虑 ,抑郁 ,人 睡 ,困难 , 宜 醒 } 
653 | 抑郁 症 ,焦虑 ,强迫 ,怀孕 ,抑郁 ,复发 ,痛苦 } C54 | 焦虑 ,失眠 ,抑郁 ,开始 , 吃 药 ! 
655 | 心慌. 头疼 ,三 个 ,白天 ,晚上 ,无 法 ,入 睡 | cs6 | 半夜 , 醒 来 ,入 卢 , 情 绪 , 长 时 间 , 低 落 , 难 以 ,入 睡 | 
657 | 睡眠, 障碍, 失眠, 入睡, 困难 } Er 1 睡眠 ,障碍 ,心慌 ,抑郁 ,睡眠 ,障碍 ,抑郁 } 
cso | 头晕 ,耳鸣 ,心慌 ,心跳 ,睡眠 ,质量 ,不 高 | cs10 | 头痛 ,头晕 ,耳鸣 ,睡眠 ,质量 ! 
[Im LUC ETE RIE, UR RE, EIE RRE, AK] 6512 | 双 相 ,情感 ,障碍 ,重度 ,抑郁 症 , 发 作 | 
[IE | 脑 出 血 ,高 血压 , 脑 出 血 , 重 症 ,监护 | Cs14 | 脑 梗塞 , 患 有 ,糖尿 病 , 高 血压 | 
6515 1 产后 ,焦虑 证, 躯体 ,障碍 ,严重 ,产后 ,抑郁 } 6516 | 出 现 ,幻觉 ,说 胡 话 | 
6517 {反复 ,头痛 ,抑郁 ,状态 ,心烦 ,偶尔 ,发 脾气 | Cs18 | 强迫 ,焦虑 ,恐惧 ,抑郁 | 
65i | 抑郁 症 ,出 现 ,头痛 , 头 胀 ,出 现 ,幻觉 , 幻 听 !} es; | 抑郁 证, 引起 ,头痛 ,身体 ,发 软 | 


分 别 对 表 6 与 表 7 所 示 的 中 文 序列 进行 比 对 ,得 
SIR 8 与 表 9 所 示 的 最 优 解 的 比 对 路 径 ( 入 取 0.5)。 
回溯 最 优 解 比 对 路 径 的 过 程 ,实质 就 是 获得 所 比 对 的 
两 序列 中 每 个 位 置 的 得 分 与 罚 分 结果 ,并 确保 所 比 对 


的 两 条 序列 最 终 长 度 相等 ,最 后 利用 两 中 文 序列 的 所 
有 得 分 与 罚 分 以 及 序列 长 度 ,计算 两 中 文 序列 的 相 
似 度 。 
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表 7 所 要 比 对 的 OARCS ( 部 分 ) 


ID 在 线 学 术 资 源 中 文 序列 ID 在 线 学 术 资 源 中 文 序列 
es, LET FUA Jr CR HEIT, TH ERE LIRE PRITI c2 (EF, SUA E CR EIT, h, UE IRE io d 
653 1 基于 ,机 器 ,学 习 ,个 性 化 ,运动 ,处方 ,推荐 ,系统 ,研究 | 654 | 基于 ,数据 ,社团 ,个 性 化 ,推荐 ,系统 | 
os | 数据 ,环境 ,基于 ,概率 ,矩阵 ,分 解 ,个 性 化 ,推荐 | cs6 1 矩阵 ,分 解 ,大 规模 ,个 性 化 ,推荐 ,系统 ,实际 ,应 用 | 
cs7 | 一 种 ,基于 ,社区 ,发 现 , 微 博 ,个 性 化 ,推荐 ,算法 | cs8 1 基于 ,加 权 , 贝 叶 斯 ,小 学 ,英语 ,个 性 化 ,资源 ,推荐 | 
cso | 基于 ,精度 , 论 域 ,粗糙 集 , 个 性 化 ,推荐 ,方法 | 6510 1 基于 , 聚 类 分 析 , 协 同 ,过 滤 ,算法 ,研究 
T 1 基于 ,用 户 , 聚 类 ,个 性 化 ,推荐 ,研究 } 6512 1 基于 ,web ,数据 挖掘, 个 性 化 ,推荐 ,系统 ,研究 | 
cs13 | 改进 ,协同 ,过 滤 , 算 法 ,资源 ,推荐 ,系统 ,应 用 ,研究 | 651a | 基于 ,协同 ,过 滤 , 算 法 ,农产品 ,个 性 化 ,推荐 ,研究 | 
6515 | 一 种 ,融合 ,个 性 化 ,多 样 性 ,任务 ,标签 ,推荐 ,方法 | cs16 | 基于 ,改进 ,协同 ,过 滤 , 算 法 ,个 性 化 ,新 闻 ,推荐 ,研究 | 
cs17 | 基于 ,web ,数据 挖掘 ,个 性 化 ,推荐 ,系统 ,研究 | sig 1 基于 ,矩阵 ,分 解 ,个 性 化 ,推荐 ,系统 ,研究 | 
es 1 数字 ,图 书馆 ,个 性 化 移动 ,视觉 ,搜索 ,机 制 ,研究 es | 移动 个 性 化 ,旅游 ,推荐 ,系统 ,模型 ,设计 | 
表 8 OHICS 最 优 解 的 比 对 路 径 ( 部 分 ) 
TT oc 失眠 焦虑 抑郁 人 入睡 困难 宜 醒 
2 653 睡眠 障碍 失眠 Adi 困难 - 
RA 打分 0.66 -0.05 0. 703 1 1 -0.05 
CN s 抑郁 症 焦虑 强迫 怀孕 抑郁 复发 痛苦 
e. - 焦虑 E RIR im A 吃 药 
e 打分 -0.05 1 -0.05 0. 563 1 -0.05 -0.05 
er. 
m es; 抑郁 证 出 现 头痛 - KJK 出 现 幻觉 幻 听 
CQ 5S 抑郁 症 引起 头痛 身体 发 软 - - - 
e 打分 1 -0.05 1 -0.05 -0.05 -0.05 -0.05 -0.05 


"i 基于 网 络 JER 技术 进行 网 站 智能 应 用 探讨 
e 基于 网 络 Ye rd 技术 进行 网 站 智能 应 用 探讨 
GT 1 1 1 1 1 1 1 1 1 
Faj 基于 机 器 学 习 个 性 化 运动 处 方 推荐 系统 研究 
có 基于 数据 社团 个 性 化 - - 推荐 系统 一 
打分 1 0. 607 -0.05 1 -0.05 -0.05 1 1 — 0.05 
csi 基于 图 书馆 个 性 化 移动 视觉 搜索 机 制 = 研究 
6s; - - 移动 个 性 化 旅游 推荐 系统 模型 设计 
打分 -0.05 -0.05 1 -0.05 -0.05 0.544 -0.05 0.651 
4.4 实验 结果 及 评价 OARCS 的 最 优 解 比 对 路 径 及 打分 结果 (该 结果 具有 一 


为 展示 本 文 方法 相 较 于 传统 方法 的 区 别 以 及 优越 
性 ,在 比 对 中 文 序列 的 过 程 中 ,本 文通 过 调整 语词 对 打 
分 矩阵 来 进行 中 文 序列 比 : 中 传统 方法 ,不 参考 语词 对 
打分 矩阵 ,只 需 滞 空 打分 矩阵 即 可 ;@) 本 文 方法 (和 = 
0.5) ,将 相似 度 大 于 0.5 的 语词 对 放 和 打分 和 矩阵;@ 本 
文 方法 (入 =0) ,将 相似 度 大 于 0 的 语词 对 放 入 打分 和 矩 
阵 。 进 行 比 对 获得 不 同 条 件 下 的 中 文 序列 最 优 解 的 比 
对 路 径 后 ,计算 所 进行 比 对 的 中 文 序列 的 相似 度 。 

比较 表 10 与 表 11 的 所 示 的 一 组 OHICS 与 


般 性 , 故 以 一 组 数据 来 进行 阐述 ) ,显然 ,由 于 传统 方法 
缺少 用 于 比 对 参考 的 语词 对 打分 矩阵 ,导致 最 优 比 对 
路 径 中 很 多 有 意义 和 关联 的 语词 对 无 法 比 对 出 来 ,并 
且 出 现 更 多 空位 罚 分 使 得 比 对 结果 较 差 。 相 比较 之 
下 ,本 文通 过 Word2vec 构建 语词 对 打分 矩阵 比 对 出 了 
更 多 有 关联 、 有 意义 的 语词 对 ,并 且 降 低 了 比 对 过 程 中 
出 现 空 位 罚 分 的 情况 。 同 时 ,调整 入 的 大 小 还 能 进 一 
步 优化 比 对 的 效果 , 比 对 出 更 多 有 意义 和 相互 关联 的 
语词 对 。 
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能 回 香 , RAM, PRI 基于 词 向 量 模型 的 中 文 序列 比 对 研究 [J]. 图 书 情报 工作 ,2020,64(10):86 -98. 


表 10 OHICS 在 不 同方 法 中 的 最 优 解 比 对 路 径 及 打分 


传统 化 方法 
65i IHR ”障碍 失眠 = = 入 睡 ”困难 = 
6j - - KR RUE 抑郁 AE 困难 宜 醒 
打分 | -0.05 -0.05 1 -0.05 -0.05 1 1  -0.05 
本 文 方法 (入 =0.5) 
cs IRR ”障碍 RIR ”入睡 ”困难 = 
csj RIR AE ”抑郁 A WE S CHE 
打分 | 0.660 -0.05 0.703 1 1 -0.05 
本 文 方法 (入 =0) 
65i 睡眠 ”障碍 ”失眠 ”入睡 ”困难 z 
ej 失眠 RE ”抑郁 “入睡 ”困难 宣 醒 
0.660 0.202 0.703 1 1  -0.05 


OARCS 在 不 同方 法 中 的 最 优 解 比 对 路 径 及 打分 


传统 化 方法 
基于 机 器 ”学习 个 性 化 运动 处方 推荐 系统 研究 
基于 数据 社团 个 性 化 - - 推荐 系统 - 


1 -0.05-0.05 1 -0.05-0.05 1 1  -0.05 
本 文 方法 (入 =0.5) 

F 机 器 学 习 个 性 化 运动 处方 推荐 系统 研究 
基于 数据 社团 个 性 化 - - 推荐 系统 - 

-0.05 -0.05 1 


00234v1 * |: 


+ 
" 
“T 


R04 


— 
I 
> 
© 
CA 


0.607 -0.05 1 


N 本 文 方法 (入 =0) 

CÓ, 基于 机 器 学 习 个 性 化 运动 处 方 推荐 系统 研究 
Cd a ge mMk - 0 - 推荐 系统 - 
EO 1 0.607 0.455 1 -0.05-0.05 1 1  -0.05 


"oHG .OARCS 在 传统 的 序列 比 对 算法 与 本 文 方 
法 量 相 似 度 计算 结果 如 表 12 与 表 13 所 示 , 显 然 本 文 
的 方法 基于 对 语词 之 间 含 义 以 及 相似 度 的 考虑 ,优化 
了 鲫 进 行 比 对 的 中 文 序列 的 相似 度 计算 结果 ,但 也 存 
在 部 分 结果 与 传统 方法 完全 相同 的 情况 ,因为 这 部 分 
中 文 序列 在 比 对 的 过 程 中 ,语词 对 打分 和 矩阵 中 没有 可 
供 打分 参考 的 语词 对 。 

表 12 OHICS 在 不 同方 法 中 的 相似 度 计算 结果 ( 部 分 ) 


OHICS OHICS 传统 方法 
CS1 CS2 0. 344 0. 544 0. 586 
CS3 C84 0. 250 0. 370 0. 370 
Css [n 0. 081 0. 203 0.311 
CS7 CS8 0. 250 0. 532 0. 532 
C$9 C510 0. 475 0. 583 0. 583 
C811 C812 0. 067 0. 130 0.311 
$13 C814 0. 100 0. 599 0. 599 
C515 C516 一 0. 050 一 0. 050 0. 090 
CS17 CS18 0. 081 0. 229 0. 264 
CS; es; 0.250 0.357 0.424 


R13 OARCS 在 不 同方 法 中 的 相似 度 计算 结果 ( 部 分 ) 


ag SE 本 文 方法 本 文 方法 
OARCS OARCS 传统 方法 (N=0.5) (=0) 
CS1 CS2 1. 000 1. 000 1. 000 
C83 Cs4 0. 417 0. 490 0. 546 
E 656 0. 300 0. 300 0. 300 
65; 65g 0. 265 0. 288 0. 328 
C$9 C510 0. 100 0. 261 0. 323 
C511 C$12 0. 550 0. 650 0. 650 
6543 cs14 0. 475 0. 475 0. 568 
ess 6516 0. 141 0. 141 0. 303 
C817 Cs18 0. 700 0. 692 0. 692 
cs; cs; 0. 081 0. 243 0.310 


将 表 12 与 表 13 做 成 图 7 所 示 的 折线 图 ( 横 轴 为 
表 12 与 13 中 所 要 比 对 的 十 组 中 文 序列 , 纵 轴 为 十 组 
中 文 序列 的 相似 度 ) ,可 以 更 加 直观 地 看 到 在 两 类 数据 
中 ,本文 方法 在 整体 都 上 有 所 提升 ,但 是 在 健康 信息 中 
文 序列 里 的 效果 更 加 明显 。 通 过 对 语词 对 打分 矩阵 中 
的 语词 进行 去 重 发 现 ,对 于 文本 所 展示 出 的 十 组 在 线 
健康 信息 中 文 序列 , 当 入 取 0.5 时 ,语词 对 打分 矩阵 中 
有 253 个 满足 打分 条 件 的 语词 对 。 当 入 取 0 时 ,该 矩 
阵 中 则 有 1 581 个 满足 打分 条 件 的 语词 对 。 同 时 ,本 
文中 所 展示 出 的 十 组 在 线 学 术 资 源 中 文 序列 , 当 入 取 
0.5 时 ,在线 学 术 资源 语词 对 打分 和 矩阵 中 仅 有 224 个 满 
足 打 分 条 件 的 语词 对 , 当 入 取 0 时 ,该 矩阵 中 则 有 
1 616 个 满足 打分 条 件 的 语词 对 。 

通过 比较 这 些 语词 发 现 ,在 线 学 术 资 源 的 论文 题 
名 数据 ,其 用 词 更 加 学 术 客观 .专业 ,其 内 容 区 分 度 也 
更 高 ;而 在 线 健康 信息 的 文本 多 是 患者 对 于 自身 病 况 
的 描述 ,虽然 不 同 患者 之 间 的 患 病情 况 不 同 ,但 其 患 病 
症状 存在 很 多 相似 特征 ,所 以 其 中 的 语词 相互 之 间 大 
多 存在 联系 。 因 此 , 相 比 较 OAICS 而 言 ,OHICS 的 相 
似 度 计算 结果 更 好 一 些 。 

针对 传统 方法 没有 考虑 所 比 对 的 中 文 序列 存在 重 
复 词 对 的 问题 ,如 表 14. 所 示 , 在 cs; 与 cs 的 比 对 过 程 中 
能 完全 匹配 的 词 只 有 “个 性 化 "或 者 “移动 ” ,其 余 位 置 
为 错 配 罚 分 (无 法 参考 语词 对 打分 矩阵 得 分 ) 或 存在 
空位 均 罚 分 , 介 于 在 两 序列 中 若 “ 移 动 ” 一 词 完 全 匹 
配 , 则 cs; 中 “个 性 化 ”一 词 会 与 cs 的 空位 对 应 或 错 配 罚 
分 ,会 出 现 更 多 的 罚 分 或 增加 序列 长 度 而 导致 相似 度 
计算 结果 偏 低 。 而 本 文 方法 找 出 重复 词 后 合并 处 理 ， 
再 来 比 对 两 个 中 文 序列 ,从 而 比 对 出 两 中 文 序列 之 间 
更 多 相似 之 处 。 
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OHICS OAICS 


0.4 
Jb 0.5 
0 0 er 
_02 i1 $92 1$ 4 $ 6& Yd 8 og 
oo 传统 方法 =æ =æ 文本 方法 (入 =05) enn 传统 方法 一 =æ 文本 方法 (入 =05) 
文本 方法 (入 =0) 文本 方法 (入 =0) 


图 7 OHICS 与 OAICS 在 不 同方 法 下 的 相似 度 计算 结果 
表 14 含 重 复 词 的 cs 与 cj 最 优 解 的 比 对 路 径 


传统 方法 
es 数字 图 书馆 个 性 化 移动 视觉 搜索 机 制 研究 
6j = 移动 个 性 化 旅游 推荐 系统 模型 设计 
可 [分 -0.05 -0.05 1 -0.05 -0.05 -0.05 -0.05 -0.05 
一 本 文 方法 (入 =0.5) 
数字 图 书馆 个 性 化 移动 视觉 搜索 机 制 一 研究 
一 一 移动 个 性 化 旅游 推荐 系统 模型 设计 
-0.05 -0.05 1 -0.05 -0.05 0.544 -0.05 0.651 
本 文 方法 (入 =0) 
数字 图 书馆 个 性 化 移动 视觉 搜索 机 制 研究 
ceo z 一 移动 个 性 化 旅游 推荐 系统 模型 设计 
Ob -0.05 - 0.05 1 0. 097 0.339 0.544 -0.05 0.651 


=} 


C CN 


Noe 传统 方法 与 本 文 方法 比 对 所 获得 的 最 优 解 的 比 
xps 中 ,如 表 14 所 示 ,序列 比 对 后 的 最 终 长 度 都 为 
8 EA Jr V B UC ARI 比 对 路 径 中 仅 第 三 列 的 语词 对 
let" 与 “个 性 化 "完全 匹配 得 1 分 ,第 一 列 空位 罚 
03 分 ,其 余 列 皆 不 匹配 一 律 罚 0.05 分 ,此 时 sim 
(Qs) -(14( -0.05) x7)/8 20.081 25; 依 此 计算 
则 可 得 本 文 方法 (入 =0.5) 时 ，sim(csi,csj) = (140.54 
+0.65+ (一 0.05) x 5)/8 20.242 5; 本 文 方法 (A = 


义 与 联系 , 比 对 效果 较 差 且 比 对 出 的 语词 通常 是 完全 
匹配 的 语词 对 ,而 这 些 完全 匹配 的 语词 对 却 不 一 定 能 
很 好 地 反映 两 文本 之 间 的 相似 性 。 本 文 方法 基于 
Word2 vec 在 比 对 出 存在 相似 关系 的 通用 语词 时 ,同时 
也 大 幅 增 加 了 比 对 出 专业 语词 的 可 能 , 且 本 文 方法 能 
够 给 出 完整 的 比 对 路 径 供 给 后 续 的 研究 与 参考 。 
笔者 在 使 用 训练 好 的 Word2vec 计算 语词 之 间 的 
余弦 相似 度 时 ,发现 Word2vec 虽然 能 够 很 好 地 将 训练 


0) 时 ， sim ( cs, , cs; ) - (1 40.097 +0.339 +0. 544 + 
0.651 + ( 20.05) x3)/8 20.310, 

传统 序列 比 对 算法 在 计算 两 中 文 序列 相似 度 时 ， 
会 严格 按 语词 顺序 来 进行 比 对 。 这 会 导致 当 所 进行 比 
对 的 两 条 中 文 序列 存在 重复 词 时 ,两 序列 的 相似 度 计 
算 结果 会 存在 较 大 误差 。 而 本 文 对 于 重复 词 对 的 处 
理 , 提 高 了 相似 度 计算 的 准确 性 。 
比较 传统 方法 与 本 文 方法 的 过 程 中 ,笔者 发 现 两 
者 的 区 别 主 要 在 于 语词 对 打分 规则 的 处 理 以 及 语词 对 
打分 矩阵 的 构建 。 在 传统 方法 用 于 实证 的 文本 中 ,其 
语词 多 是 通用 语词 ,相关 领域 的 专业 语词 较 少 。 但 是 
对 文本 中 的 语词 均 为 严格 比 对 ,忽略 了 语词 之 间 的 含 


其 自身 的 语 料 以 特征 向 量 的 形式 表示 出 来 ,但 其 存在 
一 个 明显 的 问题 , 即 Word2vec 能 将 文本 的 语词 向 量 
化 ,但 这 些 词 向 量 却 无 法 反映 文本 中 的 语词 顺序 。 由 
于 中 文 文法 的 复杂 性 与 中 文 表达 的 灵活 多 样 , 中 文 文 
本 的 语词 顺序 是 表达 其 内 容 的 极其 重要 的 特征 。 而 本 
文 所 提出 的 全 局 比 对 算法 会 严格 按照 语词 顺序 来 比 对 
两 个 文本 的 相似 之 处 ,在 基于 Word2vec 给 出 语词 对 打 
分 和 矩阵 的 基础 上 ,不仅 提 升 了 本 文 方法 的 效果 ,也 更 加 
展现 了 本 文 方法 的 优势 之 处 。 


5 ”研究 不 足 与 展望 
本 文 虽然 提出 了 一 种 改进 的 序 


列 比 对 算法 来 计算 
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能 回 香 , 赵 登 网 ， 卢 展 凡 . 基于 词 向 量 模型 的 中 文 序列 比 对 研究 [J]. 图 书 情报 工作 ,2020 ,64(10) :86 -98. 


文本 相似 度 ,但 是 其 中 仍 存在 以 下 不 足 : 第 一 ,对 于 训 
练 Word2vec 所 选取 的 语料库 是 本 文 方法 构建 语词 对 
打分 矩阵 的 核心 之 处 ,鉴于 所 参考 语料库 不 一 定 有 很 
好 的 针对 性 和 履 盖 广度 ,效果 会 有 所 影响 ;第 二 , 重 
词 对 的 相似 度 计算 在 本 文中 是 一 个 十 分 重要 的 问题 ， 
但 当 所 使 用 的 语料库 . 词 林 同 义 词 词典 以 及 前 人 提出 
的 语词 相似 度 计算 方法 等 不 能 计算 重复 词 对 的 相似 度 
时 ,就 无 法 获得 一 个 客观 合理 的 相似 度 计算 结果 供给 
参考 ,会 导致 本 文 方法 的 准确 性 有 所 降低 ;第 三 ,在 文 
本 中 还 经 常 出 现 诸多 具有 并 列 关系 的 语词 (和 ,与 . 且 
等 ) ,这 类 语词 通常 不 受 顺序 的 影响 ,可 能 会 对 本 文 方 
法 的 准确 性 有 一 定 影响 ,但 并 列 关系 的 表达 形式 繁多 ， 
需要 进一步 研究 来 改进 本 文 算法 。 
二 在 生物 信息 学 领域 ,序列 比 对 算法 更 多 是 用 于 4 
WEE WD 韭 化 树 构建 (对 序列 进行 分 类 与 聚 类 ) 以 
找 序 列 之 间 的 相似 之 处 做 进一步 的 研究 。 笔 者 认 
尝 列 比 对 算法 在 核酸 与 氨基 本 序列 中 的 研究 与 中 广 
的 研究 相 比 较 具 具有 诸多 共通 及 相似 之 处 ,今后 的 研究 
将 参考 更 多 生物 信息 学 领域 成 熟 的 方法 结合 图 情 领 域 
乒 泌 究 来 尝试 构建 中 文 文本 的 “进化 树 ” ,以 及 对 中 文 
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Abstract: | Purpose/significance | For the application of the famous sequence alignment algorithm in bioinfor- 


H sem 
Stics in text similarity, this paper improves the methods of predecessors and improves the accuracy of text similarity 


culation. | Method/process | First, the target text was normalized to form a Chinese sequence set. Subsequently , 


*'fhe trained Skip-Gram model in Word2vec is used to construct the scoring matrix of the Chinese sequence set and for- 


mulate the scoring rules. Finally, the Chinese sequences were compared two-two and the optimal solution was ob- 


tained. The comparison path of the optimal solution was obtained backtracked and the similarity of the Chinese se- 


quence was calculated. | Result/conclusion | The empirical results show that compared with the traditional methods , 


the fusion word vector model of this method improves the accuracy of text similarity calculation and effectively solves 


the problem of repeated word pairs in traditional methods. 
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